import pandas as pd

# 读取两个 CSV 文件
df1 = pd.read_csv('/home/liudd/data_preprocessing/results/01_original_data/match_land2019_02_08_2025.csv', low_memory=False)  # 或者使用 dtype
df2 = pd.read_csv('/home/liudd/data_preprocessing/results/01_original_data/match_land2019_09_12_2025.csv', low_memory=False)  # 替换为你的第二个文件名
df3 = pd.read_csv('/home/liudd/data_preprocessing/results/01_original_data/match_land2020_01_04_2025.csv', low_memory=False)  # 替换为你的第二个文件名

# 合并两个 DataFrame
merged_df = pd.concat([df1, df2, df3], ignore_index=True)
filtered_data_size = len(merged_df)
print(f'筛选前的数据总量为：{filtered_data_size}')
# data = data[data['fy_clm'] == 0]

# 过滤掉cloudsat_cbh等于cloudsat_cth的值
merged_df = merged_df[merged_df['cloudsat_cbh'] != merged_df['cloudsat_cth']]
filtered_data_size = len(merged_df)
print(f'cth!=cbh的数据总量为：{filtered_data_size}')
# 将合并后的 DataFrame 保存为新的 CSV 文件
merged_df.to_csv('/home/liudd/data_preprocessing/results/01_original_data/land_merged_201902_202004_2025.csv', index=False)  # 替换为你想要的输出文件名
# merged_df.to_csv('/mnt/datastore/liudddata/cloudsat_data/merged_201902_202004_cloudsat.csv', index=False)  # 替换为你想要的输出文件名